投资专业人员依靠将公司收入推送到未来(即收入预测)来近似规模的估值(高增长阶段的私人公司)并为他们的投资决定提供了信息。这项任务是手动和经验性的,使预测质量在很大程度上取决于投资专业人员的经验和见解。此外,关于规模的财务数据通常是专有,昂贵和稀缺的,排除了广泛采用数据驱动的方法。为此,我们提出了一种模拟的收入外推(SIRE)算法,该算法在小型数据集和短时间序列上产生精细颗粒的长期收入预测。父亲将收入动力学建模为线性动力学系统(LDS),该系统使用EM算法解决。主要的创新在于如何在培训和推论过程中获得嘈杂的收入测量。 Sire为在各个部门运作并提供置信度估计的规模工作。关于两项实际任务的定量实验表明,父亲大大超过了基线方法。当父亲从短时间序列中推断出来并长期预测时,我们还会观察到高性能。绩效效率的平衡和结果的解释性也得到了经验验证。从投资专业人员的角度进行评估,父亲可以精确地找到在2至5年内具有巨大潜在回报的规模。此外,我们的定性检查说明了父亲收入预测的一些有利属性。
translated by 谷歌翻译
Machine learning (ML) on graph-structured data has recently received deepened interest in the context of intrusion detection in the cybersecurity domain. Due to the increasing amounts of data generated by monitoring tools as well as more and more sophisticated attacks, these ML methods are gaining traction. Knowledge graphs and their corresponding learning techniques such as Graph Neural Networks (GNNs) with their ability to seamlessly integrate data from multiple domains using human-understandable vocabularies, are finding application in the cybersecurity domain. However, similar to other connectionist models, GNNs are lacking transparency in their decision making. This is especially important as there tend to be a high number of false positive alerts in the cybersecurity domain, such that triage needs to be done by domain experts, requiring a lot of man power. Therefore, we are addressing Explainable AI (XAI) for GNNs to enhance trust management by exploring combining symbolic and sub-symbolic methods in the area of cybersecurity that incorporate domain knowledge. We experimented with this approach by generating explanations in an industrial demonstrator system. The proposed method is shown to produce intuitive explanations for alerts for a diverse range of scenarios. Not only do the explanations provide deeper insights into the alerts, but they also lead to a reduction of false positive alerts by 66% and by 93% when including the fidelity metric.
translated by 谷歌翻译
We developed a simulator to quantify the effect of changes in environmental parameters on plant growth in precision farming. Our approach combines the processing of plant images with deep convolutional neural networks (CNN), growth curve modeling, and machine learning. As a result, our system is able to predict growth rates based on environmental variables, which opens the door for the development of versatile reinforcement learning agents.
translated by 谷歌翻译
Image annotation is one essential prior step to enable data-driven algorithms. In medical imaging, having large and reliably annotated data sets is crucial to recognize various diseases robustly. However, annotator performance varies immensely, thus impacts model training. Therefore, often multiple annotators should be employed, which is however expensive and resource-intensive. Hence, it is desirable that users should annotate unseen data and have an automated system to unobtrusively rate their performance during this process. We examine such a system based on whole slide images (WSIs) showing lung fluid cells. We evaluate two methods the generation of synthetic individual cell images: conditional Generative Adversarial Networks and Diffusion Models (DM). For qualitative and quantitative evaluation, we conduct a user study to highlight the suitability of generated cells. Users could not detect 52.12% of generated images by DM proofing the feasibility to replace the original cells with synthetic cells without being noticed.
translated by 谷歌翻译
在与人共享环境中运行的自主系统需要能够遵循他们所占据的社会的规则。尽管法律对于一个社会是独一无二的,但不同的人和机构可能会使用不同的规则来指导其行为。我们研究了可能不一致的行为规则中达到共同基础的问题。我们正式定义了共同基础的概念,并讨论了该概念的主要特性。然后,我们确定了保证存在共同点的喇叭表达式的三个足够条件。我们提供了在这些条件下计算共同基础的多项式时间算法。我们还表明,如果删除了这三个条件中的任何一个,则可能不存在结果(较大)类的共同点。
translated by 谷歌翻译
跨模式图像合成是一个主动研究主题,具有多个医学临床相关的应用。最近,允许对配对但未对准数据进行培训的方法开始出现。但是,没有适用于广泛的现实世界数据集的健壮且良好的方法。在这项工作中,我们通过引入新的变形均衡性鼓励损失函数,对跨模式图像合成问题的问题提出了一个通用解决方案。该方法包括对图像合成网络的联合培训以及单独的注册网络,并允许在输入上进行对抗训练,即使使用未对准数据。这项工作通过允许对更困难的数据集进行跨模式图像合成网络的毫不费力培训来降低新的临床应用程序的标准,并为开发新的基于通用学习的跨模式注册算法开发机会。
translated by 谷歌翻译
我们提出了一个新的基准数据集,即Sapsucker Woods 60(SSW60),用于推进视听细颗粒分类的研究。尽管我们的社区在图像上的细粒度视觉分类方面取得了长足的进步,但音频和视频细颗粒分类的对应物相对尚未探索。为了鼓励在这个领域的进步,我们已经仔细构建了SSW60数据集,以使研究人员能够以三种不同的方式对相同的类别进行分类:图像,音频和视频。该数据集涵盖了60种鸟类,由现有数据集以及全新的专家策划音频和视频数据集组成。我们通过使用最先进的变压器方法进行了彻底基准的视听分类性能和模态融合实验。我们的发现表明,视听融合方法的性能要比仅使用基于图像或音频的方法来进行视频分类任务要好。我们还提出了有趣的模态转移实验,这是由SSW60的独特构造所涵盖的三种不同模态所实现的。我们希望SSW60数据集和伴随的基线在这个迷人的地区进行研究。
translated by 谷歌翻译
弱监督的对象本地化(WSOL)旨在学习仅使用图像级类别标签编码对象位置的表示形式。但是,许多物体可以在不同水平的粒度标记。它是动物,鸟还是大角的猫头鹰?我们应该使用哪些图像级标签?在本文中,我们研究了标签粒度在WSOL中的作用。为了促进这项调查,我们引入了Inatloc500,这是一个新的用于WSOL的大规模细粒基准数据集。令人惊讶的是,我们发现选择正确的训练标签粒度比选择最佳的WSOL算法提供了更大的性能。我们还表明,更改标签粒度可以显着提高数据效率。
translated by 谷歌翻译
我们介绍了Caltech Fish计数数据集(CFC),这是一个用于检测,跟踪和计数声纳视频中鱼类的大型数据集。我们将声纳视频识别为可以推进低信噪比计算机视觉应用程序并解决多对象跟踪(MOT)和计数中的域概括的丰富数据来源。与现有的MOT和计数数据集相比,这些数据集主要仅限于城市中的人和车辆的视频,CFC来自自然世界领域,在该域​​中,目标不容易解析,并且无法轻易利用外观功能来进行目标重新识别。 CFC允许​​研究人员训练MOT和计数算法并评估看不见的测试位置的概括性能。我们执行广泛的基线实验,并确定在MOT和计数中推进概括的最新技术的关键挑战和机会。
translated by 谷歌翻译
由于分布式概括是一个普遍不足的问题,因此在不同的研究计划中研究了各种代理目标(例如,校准,对抗性鲁棒性,算法腐败,跨轮班的不变性),导致不同的研究计划,从而提出不同的建议。在共享相同的抱负目标的同时,这些方法从未在相同的实验条件下对真实数据进行测试。在本文中,我们对以前的工作进行了统一的看法,突出了我们经验解决的消息差异,并提供有关如何衡量模型鲁棒性以及如何改进它的建议。为此,我们收集了172个公开可用的数据集对,用于培训和分布外评估准确性,校准错误,对抗性攻击,环境不变性和合成腐败。我们从九个不同的架构中的九个不同的架构中微调了31k网络。我们的发现证实,分布的精度往往会共同增加,但表明它们的关系在很大程度上取决于数据集依赖性,并且通常比以前较小的规模研究所提出的更加细微和更复杂。
translated by 谷歌翻译